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Информационно-аналитическая система 
поддержки банковского кредитования, 
основанная на плагинах 


В статье приведено описание информационно-аналитической системы поддержки банковского кредитования, 
основанной на плагинах. Для описанной системы разработаны плагины, содержащие алгоритмы обучения, 
работы и визуализации нейронных сетей, предназначенных для построения моделей кластеризации, 
классификации и прогнозирования. 


Введение 


В последние десятилетия в мире бурно развивается банковская структура, стре- 
мительно увеличивается количество клиентов и предлагаемый банком спектр услуг, 
увеличивается уровень конкуренции между банками. Стратегическая стабильность бан- 
ка на рынке возможна только при условии его конкурентоспособности и возможности 
адаптации к изменениям рыночной среды. Одним из наиболее действенных легальных 
методов укрепления конкурентных позиций в арсенале компаний является интеллек- 
туальный анализ информации. На сегодняшний день актуальна задача разработки сис- 
темы поддержки банковских решений, предоставляющей средства интеллектуального 
анализа для решения задач банковской деятельности. 

Цель работы — одним из вариантов решения этой проблемы является создание 
модульной аналитической системы. Система должна поддерживать механизм подклю- 
чения модулей, содержащих новые функции. 

Рассмотрим построение системы поддержки процесса кредитования, основанной 
на модульности. Одним из возможных способов построения модульной и расширяемой 
архитектуры является использование плагинов. Плагин, или подключаемый модуль — 
независимо компилируемый программный модуль, динамически подключаемый к 
основной программе, предназначенный для расширения и/или использования её воз- 
можностей [1]. Плагины обычно выполняются в виде отдельных подключаемых биб- 
лиотек. Например, плагином к графическому редактору может быть фильтр, который 
каким-либо образом изменяет изображение, палитру и прочее. Большой популярнос- 
тью пользуются плагины для почтовых программ, а именно спам-фильтры, плагины 
для проверки писем антивирусом и др. Программы, широко известные своими интер- 
фейсами для плагинов: М1сгозой Оийоок, Адофе РВоюзВор, ЕсПрзе, Еаг Мапазег, М1- 
гапда 1М, ЕтеЮх, То{а! Соттапаег и др. 

В основе архитектуры, основанной на плагинах, лежит ядро системы с набором 
интерфейсов, предоставляющих средства для доступа к объектной модели ядра систе- 
мы. Ядро системы предоставляет общий набор функций, используемых всеми плаги- 
нами, например, функции доступа к базе данных, доступ к электронным письмам в 
почтовых программах, функции рисования в графических редакторах, доступ к объект- 
ной модели РОМ в браузерах и Ви-редакторах. 
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Постановка задачи. В основе архитектуры системы поддержки кредитования 
должно лежать ядро, предоставляющее интерфейс с функциями для подключаемых 
модулей. Определим функции, предоставляемые ядром: 

— обеспечение соединения с хранилищем данных (ХД) или другим источником дан- 
ных; 

— импорт из ХД данных по запросу пользователя; 

— преобразование и нормализация данных для анализа; 

— предоставление данных для плагинов в виде объектов-выборок, содержащих как са- 
ми данные, так и правила для преобразования и нормализации этих данных; 

— загрузка плагинов по выбору пользователя; 

— отображение различных пользовательских интерфейсов плагинов для различных 
категорий пользователей системы, например, аналитиков и кредитных инспекторов; 
— сохранение и загрузка настроенных при помощи плагинов аналитических моделей. 

Определим общую структуру и функции плагинов. Для разрабатываемой системы 
поддержки кредитования плагины содержат алгоритмы для интеллектуального ана- 
лиза информации, например, такие как нейронные сети (НС) или деревья решений. 
Плагин должен реализовывать специальный интерфейс для взаимодействия с ядром. 
Реализация единого интерфейса всеми плагинами необходима для: 

— идентификации. Ядро системы находит плагины по реализуемому интерфейсу; 

— унификации плагинов. Благодаря единому интерфейсу для всех плагинов ядро может 
загрузить и использовать любой плагин независимо от того, какую функциональность 
этот плагин предоставляет. 

Рассмотрим функции единого интерфейса, реализуемого всеми плагинами: 

— предоставление интерфейсов для различных категорий пользователей; 

— сериализация обученного и настроенного алгоритма в формат, пригодный для сох- 
ранения, например, в базе данных или ХМГ-файле; 

— загрузка и десериализация обученного и настроенного алгоритма из базы данных 
или файла. 

Такой интерфейс не зависит от алгоритма интеллектуального анализа, который 
предоставляет плагин, что позволяет практически неограниченно расширять систему. 


Плагины для интеллектуального анализа данных 


На данный момент для описанной системы разработаны плагины, содержащие 
алгоритмы обучения, работы и визуализации нейронных сетей, предназначенных для 
построения моделей кластеризации, классификации и прогнозирования. 

Выбор нейронных сетей в качестве плагинов для интеллектуального анализа об- 
условлен следующими факторами: 

— нейронные сети имеют широкий круг применимости и позволяют решать сложные 
задачи прогноза, классификации или кластеризации, без которых не обходится ни 
один кредитный отдел и решение которых не могут осуществить статистические ме- 
тоды; 

— нейронная сеть может на едином наборе входных данных решать несколько задач, 
имея несколько выходов, что даёт возможность кроме принятия решения о выдаче кре- 
дита, также рекомендовать подходящие данному потенциальному заемщику условия 
кредитования (например: сумму кредита и срок, на который он должен быть выдан) 
в соответствии с его материальным состоянием и другими характеристиками; 

— одна нейронная сеть может быть применена для решения задач в различных пред- 
метных областях отдела кредитования банка, а также легко переобучена и адаптиро- 
вана к другим условиям или другим задачам кредитования; 
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— нейронная сеть способна выделять нужные результаты из больших объёмов различ- 
ной информации о заемщиках с большим числом характеристик и стабильно работать 
при наличии большого числа неинформативных данных; 

— нейронная сеть может обучиться решению задачи, для которой у аналитика нет ра- 
ботающих с нужной точностью правил принятия решения, или аналитик отсутствует, 
что позволяет смягчить требования к сотрудникам отдела кредитования в банках. 

Рассмотрим работу плагина для интеллектуального анализа на примере одной из 
нейронных сетей, входящих в состав описанной системы — самоорганизующихся карт 
Кохонена (Зе-огоап1и те тар/ЗОМ). 

Плагин для ЗОМ содержит алгоритм обучения нейронной сети Кохонена и ме- 
тоды визуализации карт, которые позволяют не только разделить выборку на кластеры, 
а затем классифицировать новые образы, но и визуально анализировать исследуемые 
данные с целью нахождения в них скрытых закономерностей. 

Нейронная сеть Кохонена относится к самоорганизующимся сетям, которые при 
поступлении входных сигналов, в отличие от сетей, использующих обучение с учи- 
телем, не получают информацию о желаемом выходном сигнале. В связи с этим невоз- 
можно сформировать критерий настройки, основанный на рассогласовании реальных 
и требуемых выходных сигналов НС. Все предъявляемые входные сигналы из задан- 
ного обучающего множества самоорганизующаяся сеть в процессе обучения разделяет 
на классы, строя так называемые топологические карты [2]. 

В работе использован алгоритм обучения, описанный в [3]. В качестве функции со- 
седства выбрана функция Гаусса, радиус в начале обучения - 3, норма обучения - 0,5. 

Для визуализации карт Кохонена могут быть использованы 1-, 2- и 3-мерные 
пространства, но обычно практически ограничиваются отображением с помощью 2-мер- 
ных поверхностей, т.к. именно в таком виде человек воспринимает геометрические 
структуры наиболее естественно и отношения между объектами выглядят наиболее 
наглядно [4]. 

Под визуализацией данных картой Кохонена понимается такой способ представ- 
ления многомерного распределения данных на двумерной плоскости, при котором 
качественно отражены основные закономерности, присущие исходному распределе- 
нию -— его кластерная структура, внутренние зависимости между признаками, инфор- 
мация о расположении данных в исходном пространстве и др. 

Наиболее распространёнными 2-мерными способами визуализации карт Кохоне- 
на являются [5]: унифицированная матрица расстояний; проекция Саммона; матрица 
плотности попадания; матрица входов; матрица кластеров; матрица ошибок кванто- 
вания и другие. Каждый из перечисленных способов визуализации карт Кохонена 
позволяет наблюдать те или иные свойства анализируемых данных. 

Рассмотрим применение карт Кохонена для определения кластерной структуры 
исходных данных и выявления скрытых закономерностей в области кредитования на 
примере решения задачи кластеризации — разделения заемщиков на однородные груп- 
пы со схожими характеристиками и их визуализации. 

Набор исходных данных, использованный для кластеризации, состоит из 100 об- 
разов. Каждый образ представляет собой информацию о заемщиках и выданных кре- 
дитах и состоит из 30 характеристик, таких как: сумма кредита, срок кредита, цель 
кредитования, возраст, пол, образование, наличие квартиры, машины и др. 

При реализации и интерпретации карт Кохонена важно понимать, что все кар- 
ты — это разные раскраски одних и тех же нейронов. При этом каждый обучающий 
пример имеет одно и то же расположение на каждой из карт. 
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Также важным является выбор размера карты, т.е. количества нейронов. Неко- 
торые источники [3] рекомендуют использовать максимально возможное количество 
нейронов в карте. В то же время проекция Саммона может быть применена непо- 
средственно к набору данных, но является для вычисления очень интенсивной и актуаль- 
ным становится применение нейронной сети Кохонена, т.к. ЗОМ разбивает входные 
данные на малое количество векторов, что во многих случаях уменьшает нагрузку при 
вычислениях. 

Кроме того, после обучения каждый входной пример попадает в «свой» нейрон. 
При этом в некоторые нейроны не попадет ни одного примера, а в некоторые попадет 
несколько примеров. Распределение обучающих примеров по нейронам очень пока- 
зательно и отображается на карте частот, но более наглядной является диаграмма 
Хинтона. На рис. 1 представлены карты частот попадания и диаграммы Хинтона раз- 
ного размера для описанного выше набора данных. 

На картах частот попадания (рис. 1а, 16, 1в) белым цветом показаны узлы решётки 
(нейроны), к которым не был отнесён ни один образ, чёрным -— отнесено максималь- 
ное количество образов. 

На диаграмме Хинтона на каждом узле сетки изображается квадрат, размер ко- 
торого пропорционален числу точек, ближайших к данному узлу, а оттенок соответст- 
вует значению соответствующего отображаемого признака [4]. На диаграммах рис. 1г, 
1д, 1е оттенок квадрата соответствует значению цвета на матрице расстояний для дан- 
ного нейрона. 
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Рисунок 1 — Матрицы частот попадания и соответствующие им диаграммы Хинтона 
для карт размера: а) 10 х 10; 6) 5 х 5; в) 3х3 


Достоинством диаграммы Хинтона, кроме наглядности, является то, что оттенки 
узлов могут соответствовать необходимому признаку и диаграмма отображает сразу 
две карты, в данной ситуации — карту частот попадания и матрицу расстояний. Также 
квадраты можно заменить другими фигурами, в зависимости ещё от каких-то приз- 
наков. 
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Карта частот на рис. Та и соответствующая диаграмма Хинтона (рис. 1г) раз- 
мером 10 х 10 (100 нейронов) соответствует количеству образов исходной выборки. 
Образы не были равномерно распределены по всем узлам диаграммы, кроме того, для 
данной диаграммы характерно большое число узлов, к которым не был отнесён ни 
один образ. 

На всех диаграммах, приведённых на рис. 1, есть нейроны, которые ни разу не 
среагировали на данные из обучающей выборки, в то же время, другие нейроны среа- 
гировали несколько раз, что говорит о том, что в исходном обучающем множестве 
есть очень схожие образы. В табл. 1 приведены результаты реагирования нейронов на 
обучающую выборку для карт разного размера. 


Таблица 1 
Число среагировавших Число не среагировавших 
Размер карты е - 
нейронов нейронов 
10х 10 58 42 
5х5 21 4 
3х3 8 1 


По результатам, приведенным в табл. 1, видно, что число не среагировавших 
нейронов с уменьшением размеров карты значительно уменьшается. 

В случаях, когда число классов заранее известно, число нейронов в сети Кохо- 
нена может соответствовать числу классов. 

Узлы диаграммы Хинтона также можно представить в виде кластеров [6], тогда 
образы, попавшие в один узел, будут соответствовать одному классу. На рис. 2 при- 
ведена диаграмма Хинтона, представляющая собой 4 узла, т.е. отображающая 4 класса. 
Оттенки узлов соответствуют степени удаленности их друг от друга, а также сгущению 
точек, т.е. на данной диаграмме самый удалённый узел карты также соответствует и 
наименьшему числу образов, попавших в него. 


-й 


Рисунок 2 — Диаграмма Хинтона для карты Кохонена с 4-мя нейронами 


В табл. 2 приведено число попаданий в каждый узел для диаграммы, приведён- 
ной на рис. 2. 

В табл. 3 приведены наиболее весомые усреднённые значения по результатам 
сегментации нейронной сетью Кохонена информации о заемщиках в банках. 
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Таблица 2 
Номер класса Цвет Число отнесённых образов 
1 Тёмно-серый 19 
2 Светло-серый 26 
— Белый 38 
4 Чёрный И 


По рис. 2 и табл. 2 и 3 можно сделать следующие выводы: самым небольшим 
по числу принятых образов является четвёртый сегмент, он удалён от трёх других 
кластеров и точки, находящиеся в нём, — разрежены, кроме того, в нём находится наи- 
меньшее количество образов. По результатам табл. 3 видна аналогичная ситуация: 
это лица в возрасте свыше 60, что вполне соответствует небольшому числу таких заем- 
щиков, у которых есть множество расхождений в характеристиках и эти характерис- 
тики почти не пересекаются с характеристиками других классов. Наиболее приближен к 
нему первый — тёмно-серый сегмент — лица в возрасте до 22 лет. Приближение дан- 
ных сегментов обусловлено значительным отдалением от других сегментов, также у 
них есть схожие характеристики, отличные от двух других сегментов, такие как: не- 
большой среднемесячный доход и расход, незанятость. Данные сегменты не очень схо- 
жи друг с другом, их приближение обусловлено значительным отдалением от других 
сегментов. К первому сегменту менее всего приближен третий сегмент, характеристи- 
ки этих сегментов значительно отличаются. 

Самые крупные по числу отнесённых к ним образов второй -— светло-серый, и 
третий — белый, сегменты, расположенные наиболее близко друг к другу, это лица в 
возрасте от 22 до 40 лет и от 40 до 60 соответственно. Также по результатам, приве- 
денным в табл. 3, эти сегменты содержат образы с наиболее схожими характеристи- 
ками, такими как семейное положение, цели кредита, среднемесячный доход и расход 
и другие. Расхождения в характеристиках третьего сегмента меньше, чем в трёх дру- 
гих сегментах. 


Таблица 3 
Усреднённые значения свойств сегментов 
Характеристики 
РТ Сегмент 1 Сегмент 2 Сегмент 3 Сегмент 4 
Возраст до 22 лет от 22 до 40 от 40 до 60 свыше 60 
разведён(а), 
Семейное холост (не женат женат вдовец(а), 
положение замужем) (замужем) (замужем) женат 
(замужем) 
Занятость нет да да нет 
Квартира нет да да да 
Машина нет нет да да, нет 
Среднеме- 
И до 500 от 1500 от 2000 до 500 
сячный доход 
Среднеме- 
в до 400 от 1000 от 1000 до 400 
сячный расход 
Образование, | Потребитель- 
р ы р Потреби- 
потреби- ские товары, Транспорт, 
Цель кредита тельские 
тельские транспорт, недвижимость 
товары, иное 
товары недвижимость 
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Как показали результаты проведённых исследований, диаграмма Хинтона хо- 
рошо отображает разделение исходного множества на известное число сегментов, в 
данной ситуации -— 4, что подтверждают результаты, приведенные в табл. 3. 

При анализе также весьма важной является карта входов, т.е. оценка весов ней- 
ронов. Для каждого входа нейрона рисуется своя карта, которая раскрашивается в 
соответствии со значением соответствующего веса нейрона. У нейронной сети, об- 
учаемой с учителем, веса нейронов не имеют физического смысла и не используются 
при анализе, но при обучении без учителя веса нейронов подстраиваются под значения 
входных переменных и отражают их внутреннюю структуру. Обычно анализируют 
одновременно несколько карт входов. 

На рис. 3 приведены карты входов размером 20 х 20, на которых образы равно- 
мерно распределены по узлам сетки, для таких входов, как среднемесячный доход и 


расход заемщиков. 


среднемесячный доход 


а) 
Рисунок 3 — Карты входов: а) среднемесячный доход; 6) среднемесячный расход 


Карты входов (рис. 3) имеют очень схожий вид. Схожесть начертания карт оп- 
ределяет и схожесть данных входов. По данным картам можно сделать вывод, что 
определённые доходы влекут соответствующие расходы, кроме случаев, в которых од- 
ни и те же нейроны на разных картах окрашены в разный цвет. 

Иная ситуация с такими входными данными, как сумма кредита и срок, на кото- 
рый он выдан, карты для данных входов приведены на рис. 4. 


Сумма кредита 


Рисунок 4 — Карты входов: а) сумма кредита; 6) срок 
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По данным компонентам (рис. 4) можно сделать вывод, что для временного пе- 
риода, по данным за который построены карты, срок кредитования в большинстве 
случаев непосредственно зависел от выданной заемщику суммы. 

Карты Кохонена как аппарат интеллектуального анализа могут применяться в 
банковских системах для кластеризации, классификации и когда необходима визуа- 
лизация более чем двумерного входного пространства. 


Выводы 


Архитектура, основанная на плагинах, позволяет создавать приложения с поддерж- 
кой динамического добавления функциональности, что позволит пользователю рас- 
ширять возможности этого приложения. Система для поддержки банковского креди- 
тования, основанная на плагинах, позволит практически неограниченно наращивать 
функциональность. 

Проведён эксперимент по построению и визуализации карт Кохонена для мно- 
гомерного набора данных из области банковского кредитования. Данные о клиентах 
были разделены сетью на 4 группы и отображены посредством диаграммы Хинтона. 

Полученные результаты свидетельствуют об эффективности применения аппа- 
рата нейронных сетей Кохонена для визуализации данных различной размерности, с 
различными структурами. 

Перспективы и дальнейшие исследования направлены на применение средств 
визуализации к другим нейронным сетям, решающим аналогичные задачи. 
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А.С. Коряк 

Тниформацно-аналгична система шдтримки баню вського кредитування, 

що заснована на планах 

У статт! наведений опис 1нформащйно-аналтично! системи шдтримки банювського кредитування, що 
заснована на планах. Для системи, що описана, розроблен! плапни, як! мають алгоритми навчання, 
роботи та в1зуал1заци нейронних мереж, що призначен! для створення моделей кластеризаци, 
класифлкаци та прогнозування. 


Статья поступила в редакцию 16.07.2009. 
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